Sub title
把结果看成因素的线性组合是一种简单而优美的哲学
—— CodelancerA
属性的线性组合
来进行预测的函数
向量形式
人们总是想通过归纳来预测世界的发展...线性回归也是如此
2.1 一元线性回归
2.1.1 一元线性回归任务
若离散属性为Ordinal属性,则连续化
若为Nominal属性,则转换为k维度向量
2.1.2 目标函数
找出令SSE均方误差最小化情况下的w和b
也就是
2.1.3 求解目标函数(最小二乘法)
对
2.2 多元线性回归
2.2.1 多元线性回归任务
2.2.2 目标函数
Sub title
即,选择让内积最小时候的
为了计算方便和看起来简介,要对原本的向量和矩阵做一下变换
Sub title
符号说明
把样本的属性向量和1拼接到一起
把w和b拼接到一起
标记的列向量
2.2.3 求解过程
对损失求导
先展开
然后逐个求导,最终得到
用到的公式:
1.
令倒数为0,解得:
2.2.4 正则化
看到矩阵求逆,你就得知道,麻烦来了
Sub title
涉及矩阵求逆,如果
比如现实情况中,往往是样本数量大于属性数量,这时候必然不满秩
2.3 广义线性回归
Sub title
称为联系函数
Sub title
则得到对数线性回归
2.4 对数几率回归
2.4.1 对数几率回归任务
上面的线性回归都是解决的回归问题,能不能用线性回归来解决分类问题?
—— 当然可以,让我们有请对数几率回归
Sub title
任务:以二分类任务为例 (预测值大于0.5为正例,小于为负例)
找一个单调可微的函数
Sub title
作为替代,我们可以用Sigmoid函数作为
Sigmoid的函数图像长这样:
把这个Sigmoid函数带回到广义线性回归模型中,得到
在进行一次逆变换,得到:
2.4.2 几率
Sub title
则
Sub title
反应了
2.4.3 目标函数
不用求导为0解的原因
使用极大似然法来确定
Sub title
将
Sub title
即令每个样本属于其真实标记的概率越大越好
Sub title
Sub title
2.4.4 求解方法
根据凸优化理论
梯度下降
牛顿法
都可以得到最优解
3.1 基本思想
Sub title
给定训练样例集,设法将样例投影到一条直线上,使得
同类样例的投影点尽可能接近
异类样例的投影点尽可能远离
Sub title
先把它投影这条直线上
在根据投影点的位置来确定新样本的类别
3.2 目标衡量标准:
3.2.1 同类样例的投影点尽可能接近
用什么标准来衡量同类样例的投影点的接近程度呢?
Sub title
协方差矩阵
越线性不相关(越接近单位矩阵)
样本点越互相靠近,越像是一团
假设有还是二分类问题,那么就有两个类(0, 1)
要度量整体模型的类内散度,就要把两个类分别的协方差矩阵
也就是类内散度矩阵
3.2.2 异类样例的投影点尽可能远离
用什么标准来衡量异类样例之间的原理程度呢?
Sub title
越大越远离
3.3 目标函数
同类样例在直线上的投影点尽可能接近(标量度量):
异类样例在直线商的投影点尽可能远离(标量度量):
3.4 求解方法
注意到
于是解出